信息

文字和数字

当语言和词汇多到一定程度时,人类仅靠大脑已经记不住所有的词汇了。高效记录信息的需求就产生了,这便是文字。

最早是象形文字,当文字的数量多到一定程度时便不再增加了,于是开始了对概念的概括与归类。比如中文的一字多意。对于概念的聚类在原理上与今天自然语言处理或机器学习的聚类有很大的相似性。

文字按照意思来聚类,最终会带来一些歧义性,解决这个问题的方法过去与现在并没有什么不同,都是依靠上下文。但是还是会有有歧义的情况发生。今天的情况也是这样,对上下文建立的概率模型再好也有失灵的时候。这些事语言从产生开始就固有的特点。

翻译之所以能够进行,仅仅是因为不同的文字系统在记录信息上的能力是等价的(这一点非常重要)。文字只是信息的载体,而非信息本身。即使不用文字使用如数字的载体也可以存储同样意义的信息。这便是现代通信的基础。

当然,不同的文明进行交流时,或许会用不同的文字记载同一件事情。这就有可能为我们破解无人能懂的语言提供一把钥匙。

罗塞塔石碑使用了三种语言记录的同一件事情,罗塞塔石碑的破解有两点指导意义。首先,信息的冗余是信息安全的保障,其次,语言的数据,又称为语料尤其是双语或者多语对照语料对翻译至关重要。

既然文字是出现在远古“信息爆炸”导致人们的头脑装不下这些信息的时候,那么数字的出现则是在人们的财产多到需要数一数才搞清楚有多少的时候。

最开始是掰手指头来计数的,所以自然而然的就是十进制了。当然,也有连脚指头算上去的民族,所以他们是二十进制。当十进制不够用时,我们的祖先很聪明,他们发明了进位制,也就是我们今天说的逢十进一。这是人类在科学上的一大飞跃,因为我们的祖先懂得对数量开始编码了,不同的数字代表不同的量。比如二百,就是编过码的数字,解码的方法是乘法2*100。从编码的有效性来说,中国人的做法比罗马人高明。

阿拉伯人传播的古印度发明的数字123是革命性的,标志着数字和文字的分离。

文字和语言背后的数学

但是,任何事物的规律性是内在的,并不随它的载体而改变。自然语言的发展在冥冥之中,都受着信息科学规律的引导。

从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表到抽象的概念,同时不自觉地采用了对信息的编码。不仅如此,我们的祖先对文字的编码还非常合理。常用的较短,不常用的较长。这完全符合信息论中的最短编码原理。

在蔡伦发明纸张以前,书写文字不是一件容易的事情。就以中文为例在东汉以前要将文字刻在其他物件比如龟壳、石碑和竹简上。由于刻个字的时间相当长,因此要惜墨如金。这就使得我们的古文(书面文字)非常简洁,但是非常难懂,而同时期的口语却和今天的白话差别不大,语句较长但是易懂。(岭南客家话基本上保留了古代口语的原貌,写出来和我们清末民初的白话颇为相似。)这种现象非常符合今天信息科学(和工程)的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。

犹太人在抄写《圣经》时,抄写错误还是难以避免。于是犹
太人发明了一种类似于我们今天计算机和通信中校验码的方法。他们把每一个希伯来字母对应于一个数字,这样每行文字加起来便得到一个特殊的数字,这个数字便成为了这一行的校验码。同样,对于每一列也是这样处理。当犹太学者抄完一页《圣经》时,他们需要把每一行的文字加起来,看看新的校验码是否和原文的相同,然后对每一页进行同样的处理。如果这一页每一行和每一列的校验码和原文完全相同,说明这一页的抄写无误。如果某行的校验码和原文中的对应不上,则说明这行至少有一个抄写错误。当然,错误对应列的校验码也一定和原文对不上,这样可以很快找到出错的地方。

如果说从字母到词的构词法(Morphology)是词的编码规则,那么语法则是语言的编码和解码规则。不过,相比较而言,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有完备的编解码规则,而后者则不具备这个特性。因此,任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。

小结

这些今天自然语言处理学者们研究的问题,我们的祖先在设计语言的时候其实已经遇到了,并且用类似今天的方法解决了,虽然他们的认识大多是自发的,而不是自觉的。他们过去遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。